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PROCggg D ' ORGANISATION D / UNE BASE DE DONNE ES 

La presente invention se rapporte au domaine des bases 
de donnees. La presente invention porte plus 
5 particulierement sur un proc6d6 technique d' organisation 
d'une base de donnees. 

On connait dans l'art anterieur, par la demande de 
brevet am^ricain US 2004/0098363 (IBM), un systeme de 
10 stockage hierarchique de donnees. Des objets de donnees sont 
stockes dans une hierarchie de stockage et des tables de 
contenu contenant des entries sont generees. L' emplacement 
des tables de contenu est g€re de fagon dynamique. 

15 L'art anterieur connait 6galement, par la demande de 

brevet europ^en EP 1 423 799 (Lafayette Software) des 
proced6s pour organiser des donnees et realiser des requetes 
dans un systeme de bases de donnees. Les informations sont 
organises dans un systeme de bases de donnees avec des 

20 groupes d'attributs definis et des mots de collection de 
donnees assignes aux attributs en associant une liste 
d' identif iants de graphes de donnees avec une entree de 
thesaurus. 

25 L'art ant6rieur connait egalement par la demande de 

brevet PCT WO 04/25507 (Karmic Software Research), qui 
correspond a la demande de brevet frangais FR 2 844 372, un 
procede d' organisation d'une base de donnees numeriques sous 
une forme tradable. Plus pr6cis§ment, cette demande porte 

30 sur un procede d ' organisation d'une base de donnees 
numeriques sous une forme tradable, comportant des etapes 
de modification d'une base de donnees numeriques principale 
par ajout ou suppression ou modification d'un enregistrement 
de la base principale et des etapes de lecture de la base de 

35 donnees principale, caracteris^ en ce que 

BEST AVAILABLE COPY 
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- l'6tape de modification de la base de donnees 
principale comprend une operation de creation d'au moins un 
enregistrement numerique comportant au moins : 

* les identifiants numeriques uniques des 
5 enregistrements et des attributs concern6s de la base 

de donnees principale , 

* un identifiant numerique unique de l'etat de la base 
de donnees principale correspondant a ladite 
modification de la base de donnees principale , 

10 * les valeurs el^mentaires des attributs qui leur sont 

affectees a travers les operations elementaires, sans 
proceder au stockage des attributs ou des 
enregistrements non modifies/ 

- et d'ajout dudit enregistrement dans une base 
15 d'historisation interne compos^e d'au moins une table, 

- et en ce que l'etape de lecture portant sur tout 
etat final ou ant^rieur de la base de donnees principale 
consiste a recevoir (ou intercepter) une requete originelle 
associ#e a 1 ' identif icateur unique de l'etat vise, a 

20 proceder a une transformation de ladite requete originelle 
pour construire une requete modifiee d'adressage de la base 
d'historisation comprenant les criteres de la requete 
originelle et 1 ' identif icateur de l'etat vis6, et de 
reconstruction du ou des enregistrements correspondant aux 

25 criteres de la requete originelle et a l'etat vise, ladite 
etape de reconstitution consistant h retrouver les valeurs 
616mentaires, contenues dans les enregistrements de la base 
d'historisation, correspondant aux criteres de la requete 
originelle [afin de r§duire les besoins de capacite de 

30 stockage et les temps de traitement]. 

On connait 6galement, par le brevet americain US 6 292 
795 (IBM), un systeme d' indexation de fichiers et un 
m€canisme pour acceder a des donnees dans un tel systeme. 
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Enfin, on connait aussi 
am^ricain US 5 826 262 (IBM) 
parallele d'arbres a radicaux 
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dans l'art anterieur le brevet 
un precede de construction en 



5 Le probleme technique que la pr^sente invention se 

propose de r6soudre est celui qui consiste en 1 ' amelioration 
des performances des requetes dans une base de donnees. En 
effet, les proc6d£s de l'art anterieur consomment de grandes 
ressources machine, que ce soit du point de vue des 
10 ressources processeurs que des ressources disques. 

A cet effet f la presente invention concerne, dans son 
acception la plus g6n6rale, un procede d' organisation d'une 
base de donn6es relationnelle destine a etre mis en ceuvre 
15 sur une architecture informatique comprenant au moins un 
processeur et de la memoire, caract§rise en ce qu'il 
comporte les etapes consistant a : 

• ^laborer une table d' expansion hi^rarchique ; 

• creer un thesaurus sur chacune des colonnes ; 

20 • pour chacun des mots de chacun des thesaurus f 

creer l.'arbre des radicaux de 1' ensemble des indices de 
lignes sur lesquelles ledit mot apparait ; 

• pour chacune des cles primaires, stocker la suite 
de ces valeurs en mettant en ceuvre une permutation sur 

25 1' ensemble de ces valeurs dans le but de retrouver une 
donnee • 



Avantageusement, le proc6d6 comporte en outre une 
§tape de decoupage des tables de la base de donn§es en un 
30 ensemble de sous-tables , chacune comportant un nombre donn6 
de lignes a 1' exception de la derniere sous-table. 

De preference , la base de donnees met en ceuvre le 
langage SQL (Structured Query Language). 
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La pr^sente invention se rapporte egalement a un 
systeme de base de donn^es organise selon le proc^de 
d' organisation defini plus haut. 

5 La presente invention se rapporte egalement a un 

proced6 de requetage d'une base de donn6es organisee selon 
le procede d' organisation defini plus haut, caract^rise en 
ce qu'il comporte 

• une premiere 6tape de calcul d'une table 
10 d' expansion ; 

• r^soudre la clause « Where » de la requete en 
interrogeant les colonnes de ladite table d' expansion ; 

• interroger les images non invers£es des colonnes 
pour r^soudre la clause « Select » . 

15 

On comprendra mieux 1' invention a l'aide de la 
description, faite ci-apres a titre purement explicatif f 
d'un mode de realisation de 1' invention , en reference aux 
figures annexees : 
20 - la figure 1 illustre un stockage au moyen d'un 

arbre a radicaux ; 

la figure 2 illustre un exemple de representation 
d'une colonne d'une table ; 

la figure 3 illustre un resume du stockage complet 
25 d'une colonne ; 

les figures 4 et 5 illustrent un arbre a radicaux 
avant et apres une operation NOT . 

Un arbre a radicaux est un moyen pratique de stocker 
30 des ensembles d'entiers, particulierement quand ils sont 
Merits sur une meme longueur. Lorsqu'on utilise des entiers, 
il est clairement toujours possible de leur imposer la meme 
longueur d'6criture (celle du plus long ou plus) en faisant 
pr^ceder leur ecriture du nombre adequat de chif f res 0 . 

35 
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Consid^rons par exemple un ensemble d'entiers qu'on 
6crit sur une longueur unique en base 2, 5= {0 , 2, 5, 7, 
11} = {0000, 0010, 0101, 0111, 1011}. On peut alors stocker 
cet ensemble dans un arbre a radicaux dont les chemins, 
5 depuis la racine jusqu'aux feuilles, represente l'6criture 
de l'entier stocke dans la feuille de 1' arbre. Par exemple, 
1* ensemble precedent peut etre stocks dans 1 1 arbre a 
radicaux de la Figure 1 . 

Les avantages a utiliser un arbre k radicaux sont fort 

10 nombreux : le stockage est 6conomique en termes d'espace 
m€moire car les prefixes communs aux nombres distincts ne 
sont stockes qu'une seule fois. Par ailleurs, comme nous le 
verrons dans les paragraphes suivants, les operations 
logiques sur des ensembles stockes ainsi sont rapides, 

15 6conomiques en termes de ressources machines et simples a 
impl^menter . 

On d^taille comment des arbres a radicaux peuvent etre 
utiles et efficaces pour stocker les donnees d'une base de 
20 donnees ou pour la modifier. 

Dans la premiere partie, on suppose que la base de 
donnees n'est composee que d'une table, elle-meme composee 
d'une unique colonne. 

25 

Puis nous supposerons que la base de donnees n'est 
composee que d'une unique table, elle-meme composee de 
plusieurs colonnes, et d'au moins une cle primaire. II peut 
en effet s ' av6rer tres pratique d'autoriser une table a etre 
30 munie de plusieurs cles primaires. En effet, en pratique, il 
arrive frequemment qu'une ligne de table ne soit que 
partiellement remplie. II se peut alors qu'une des cl6s 
primaires soit incomplete, done inutilisable, mais qu'une 
autre soit complete. 
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La derni&re sous-partie est d£di6e a la creation des 
index d'une base de donnees quelconque. 

Une cl6 primaire est une colonne, ou un ensemble 
ordonne de colonnes, tel que deux lignes differentes de la 
table ne puissent prendre les memes valeurs sur cette (ou 
ces) colonnes • 



II existe cependant toujours une cl6 primaire 
10 implicite et tres utile : 1' indice de la ligne dans la table 
(il s'agit en effet d'une cle primaire puisque deux lignes 
distinctes ne peuvent avoir le meme indice de ligne). Dans 
la suite de la description de cette invention, nous 
supposerons que cette cl6 primaire est effective. 

15 

Si on doit stocker, interroger et gerer une base de 
donnees faite d'une unique table elle-meme constitute d'une 
unique table, on peut calculer le thesaurus de cette colonne 
et pour chaque mot de ce thesaurus calculer 1 ' ensemble des 
20 indices de lignes auxquels il apparait. 

Ces indices de lignes peuvent tout naturellement etre 
stockts dans un arbre a radicaux. 



25 Remarquons qu'au cours de la creation du thesaurus, un 

tri des donnees est effectue. On trie en effet 1' ensemble 
des couples (mot, indice de ligne) selon les mots et, a mot 
6gal, selon les indices de lignes. Ainsi on peut d'une part 
calculer le thesaurus et d' autre part, pour chacun des mots 

30 de ce thesaurus 1 ' arbre a radicaux des indices de lignes 
auxquels il apparait. 



35 
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Prenons un exemple : la table : 



0 


Male 


1 


Female 


2 


Female 


3 


Male 


4 


Female 


5 


Male 


6 


Male 


7 


Female 


8 


Female 


9 


Male 


10 


Male 



(dans cet exemple, les indices de lignes sont 
5 indiqu^s explicitement ) . 

On construit alors les couples 

(Male, 0), (Female, 1), (Female, 2), (Male, 3), 
(Female, 4), (Male, 5), (Male, 6), (Female, 7), (Female, 8), 
10 (Male, 9), (Male, 10) 

et on les trie selon leur premier Element en priorite 

(Female, 1), (Female, 2), (Female, 4), (Female, 7), 
15 (Female, 8), 

(Male, 0), (Male, 3), (Male, 5), (Male, 6), (Male, 9), 
(Male, 10). 

On peut alors construire le thesaurus et, pour chaque 
20 mot du thesaurus, 1 1 ensemble des indices de lignes auxquels 
il apparait. 



Le mot ""Female 1 1 apparait aux lignes {1, 2, 4, 7, 8} 
et ""Male 11 apparait aux indices {0, 3, 5, 6, 9, 10}. 
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Apres ce travail , il est tres simple de repondre a une 
question comme ""Quels sont les indices de lignes auxquels 
apparait le mot ""Male 1 ' ?'' mais relativement difficile de 
5 repondre a une question comme ""Quel est le contenu de la 
cellule de la ligne 5 . Pour ce genre de requete, on 

pourra consulter la sous-section 5 ci-apres. 

Ces ensembles d' indices de lignes peuvent done etre 
10 stockes dans des arbres a radicaux. Ce proc6d6 de stockage 
est tres utile pour calculer 1 1 intersection , la reunion etc. 
\dots de tels ensembles. 

Dans l'exemple pr6c6dent, on obtient le r^sultat 
15 presente Figure 2. 

II est une autre requete courante qui concerne le 
contenu d'une colonne ; le ""entre'' : on peut souhaiter 
connaitre les indices de lignes dont le contenu est compris 
20 entre deux bornes donnees. 

Imaginons par exemple qu 1 une colonne contienne des 
dates , 6crites au format AAAAMMJJ. Comparer deux dates 
stock^es sous ce format est en fait la meme chose que les 
2 5 comparer lexicogr aphiquement . 

Mais nous pouvons aussi enrichir le thesaurus de mots 
obtenus comme troncatures des mots du thesaurus initial. Par 
exemple, on peut decider d' enrichir le thesaurus de toutes 
30 les troncatures des quatre ou six premieres lettres des mots 
du thesaurus initial. 

Ainsi chaque mot serait repr§sente, dans notre 
exemple, trois fois : une fois en tant que lui-meme, une 
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fois tronque a six caracteres et une derniere fois tronque a 
quatre caracteres. 

Tout mot de six caracteres , disons aaaamm, apparaitra 
5 a chaque fois que la ligne initiale contenait un mot 
aaaammxx. En d'autres termes, 1' ensemble des lignes 
auxquelles apparaitra le mot aaaamm est la reunion des 
ensembles d' indices de lignes ou apparait un mot de la forme 
aaaammxx (c ' est-a-dire aaaamm suivi de quoi que ce soit). 

10 

De meme un mot de quatre caracteres aaaa apparaitra a 
chaque fois qu'un mot de la forme aaaaxxyy etait present 
dans la table initiale. Son arbre a radicaux est done 
1' union des arbres a radicaux des mots dont il est prefixe. 

15 

L'interet est qu ' une clause ^entre' ' (between en 
anglais) peut se traiter avec une economie importante en 
termes de lectures sur proc^de de stockage. Par exemple, si 
on cherche 1 1 ensemble des lignes auxquelles apparait une 
20 date comprise dans 1 1 intervalle [19931117, 19950225], le 
nombre de lectures n6cessaires d' arbres a radicaux est de 
14+1+1+1+25 = 42 (car [19931117, 19950225] = [19931117, 
19931130] U [199312, 199312] U [1994, 1994] U [199501, 
199501] U [10050201, 19950225]), au lieu de 466. 

25 

II peut parfois se trouver que certaines lignes d'une 
table ne soient pas renseign6es • Mais pour creer les arbres 
a radicaux, toute ligne devrait avoir une valeur. 

On choisit done des valeurs signifiant que la ligne 
30 correspondante ne contient pas d 1 information. Naturellement , 
on choisira une valeur ayant un rapport avec le type des 
donnees stockees; VA titre d' exemple, on peut choisir : 

#Empty# pour une chaine de caracteres, -2^1 pour un 

entier sign£ sur 32 bits, 2 32 -l pour un entier non sign6 
35 sur32 bits, 
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-2 63 pour un entier sign6 sur 64 bits, 

2 64 -l pour un entier non sign§ sur 64 bits, etc. 
Comme expliqu6 precedemment , le stockage d'une colonne 
par thesaurus et arbres a radicaux n'est pas tres pratique 
5 pour repondre a une requete comme "Quelle est la valeur de 
la ligne 17 ?''. par exemple. 

C'est pourquoi il est necessaire de stocker en sus la 
colonne dans son ordre naturel. Bien sur, plutot que stocker 
10 la colonne elle-meme, il sera souvent avantageux de stocker 
la suite des indices de mots dans le thesaurus. Nous nommons 
ce stockage supplementaire 1 ' image non inversee de la 
colonne . 

15 Par exemple, la colonne precedente sera stockee de la 

fagon suivante : 



Thesaurus 



0 


Female 


1 


Male 



et la colonne 
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Remarque : il peut se trouver qu 1 au fur et a mesure 
que la base de donntes est transformee, un mot apparaisse ou 
disparaisse du thesaurus (par exemple lorsqu'on retire ou 
5 ajoute des lignes a la table). On pourrait des lors penser 
que la rtecriture complete de la colonne est ntcessaire. Ce 
n'est en fait pas le cas : Plutot que stocker le thesaurus 
tri6, on peut le stocker non trie et enregistrer a part une 
permutation permettant de retrouver 1 ' ordre lexicographique 

10 des mots qui le composent. C'est pourquoi si un mot apparait 
dans le thesaurus, la reecriture complete de la colonne 
n'est pas necessaire. On reecrit dans ce cas la permutation 
permettant de retrouver 1' ordre lexicographique des mots 
plutot que le thesaurus lui-meme. 

15 La figure 3 illustre le resume du stockage complet 

d'une colonne. 

Dans le cas d'une base de donn6es ne contenant qu'une 
seule table elle-meme constitute de plusieurs Colonnes peut 
20 etre traitte comme si elle §tait form§e de colonnes 
independantes . En d'autres termes, on peut creer le stockage 
de chacune des colonnes constituant la table. 

La seule question en suspens est alors le traitement 
25 de la c!6 primaire. 

Lorsqu'on s'occupe d'une cl6 primaire , on a besoin 
d'etre capable de repondre le plus rapidement possible a 
deux types de requetes oppostes : "A quelle ligne peut-on 
30 trouver une valeur donnee de cle primaire'' et "Quelle est 
la valeur de la cle primaire trouvee a une ligne donnee ? ' ' . 

On peut repondre efficacement a ces deux types 
d ' interrogation en stockant a la fois la colonne ou les 
35 colonnes formant la cle primaire dans 1' ordre dans lequel 
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les lignes apparaissent dans la table et une permutation 
permettant de lire les colonnes dans 1 ' ordre li6 a une 
fonction quelconque de comparaison. On peut alors retrouver 
une valeur donnee par dichotomie. 

5 

Par exemple, imaginons qu'une cle primaire est form^e 
de deux colonnes , dont les valeurs sont stock^es dans le 
tableau ci-dessous. 



10 



15 



(0) 


1 


3 


(1) 


2 


1 


(2) 


3 


2 


(3) 


2 


3 


(4) 


1 


2 


(5) 


3 


7 


(6) 


2 


2 


(7) 


1 


1 


(8) 


3 


3 


(9) 


4 


3 



20 Dans cet exemple , les indices de lignes sont a nouveau 

exprim^s explicitement mais mis entre parentheses. On stocke 
done les deux colonnes exactement corame elles sont dans la 
table et une permutation , li6e a une fonction de comparaison 
qu'on choisit. Par exemple, on peut decider de comparer 

25 d'abord la premiere colonne lexicographiquement et a valeur 
egale comparer la deuxieme ordinalement • 

Dans ce cas, la cle primaire triee est : 
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5 



10 



(7) 


1 


1 


(4) 


1 


2 


(0) 


1 


3 


(1) 


2 


1 


(6) 


2 


2 


(3) 


2 


3 


(2) 


3 


2 


(8) 


3 


3 


(5) 


3 


7 


(9) 


4 


3 



En retirant les valeurs (mais en gardant les indices), 
on obtient la permutation (7401632859). 
15 La plus petite valeur se trouve done a la ligne 7 , la 

deuxieme plus petite a la ligne 4, etc* 

Retrouver une valeur donnte se fait ainsi facilement 
par dichotomie. 

20 Lorsqu ' on stocke une table, il est tres pratique de 

stocker et maintenir a jour le nombre total de lignes dont 
elle est constitute. 

Dans une base de donnees relationnelle, il y a 
25 habituellement plusieurs tables relives entre elles par des 
jeux de cits primaires, cles etrangeres. 

Comme expliqut precedemment, une clt primaire est une 
colonne ou un ensemble ordonne de colonnes ne pouvant 
30 prendre la ou les memes valeurs en deux lignes distinctes. 
(L'indice de ligne est un exemple fondamental de cle 
primaire . ) 

Supposons qu ' une table soit constitute de plusieurs 
35 millions de lignes, mais que certaines de ses colonnes ne 
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puissent prendre qu 1 un nombre tres reduit de valeurs 
diff^rentes (par exemple, une base de donn§es contenant des 
donnees de genealogie peut contenir les noms de personnes, 
pour chacune d'elles son pays de naissance, son continent de 
5 naissance, les pays et continents de naissance de sa mere et 
de son premier enfant s'il en a. Au lieu de renseigner 
toutes ces colonnes, il est consid6r6 comme tres economique 
de stocker dans un tel cas les pays dans une table separee 
de la table principale et le continents dans une troisieme 

10 table. La table principale contient alors a chaque ligne une 
valeur (une cle 6trangere) donnant un identifiant de ligne 
(une valeur de cle primaire) de la table ""pays' 1 et la 
table ""pays' 1 contient , a chacune de ses lignes, une valeur 
(une cl§ etrangere) identifiant une des lignes de la table 

15 " "continent ' ' (cl6 primaire). 

Voici un exemple (table clients ci-dessous) miniature 
illustrant ce qui precede : 



(li) 


Cn 


Inc 


Bircoun 


BirCont 


MoCoun 


MoCont 


EldCoun 


EldCont 


(0) 


Dupont 


817 


France 


Europe 


Tunisia 


Africa 


England 


Europe 


(1) 


Gracamoto 


1080 


Japan 


Asia 


Japan 


Asia 


USA 


America 


(2) 


Smith 


934 


England 


Europe 


India 


Asia 


England 


Europe \ 


(3) 


Helmut 


980 


Germany 


Europe 


Germany 


Europe 


Germany 


Europe 



20 

(dans cet exemple, ""en 1 ' designe le nom, ""inc 1 ' le 
revenu, ""BirCoun' 1 le pays de naissance, ""BirCont'' le 
continent de naissance, ""MoCoun'' le pays de naissance de 
la m&re, ""MoCont'' le continent de naissance de la mfere, 
25 ""EldCoun'' le pays de naissance de 1 ' ain6 et ""EldConf' 
le continent de naissance d'aine. 
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Cette table peut etre reecrite en plusieurs tables : 



Continents : 



(li) 


Continent 


(0) 


Africa 


(1) 


America 


(2) 


Asia 


(3) 


Europe 



5 

Pays : 



(li) 


Country 


Continent 


(0) 


France 


3 


(1) 


Tunisia 


0 


(2) 


England 


3 


(3) 


Japan 


2 


(4) 


USA 


1 


(5) 


India 


2 


(6) 


Germany 


3 



10 La table principale devient ainsi : 



(li) 


cn 


Inc 


Bircoun 


MoCoun 


EldCoun 


(0) 


Boyer 


817 


0 


1 


2 


(1) 


Gracamoto 


1080 


3 


3 


4 


(2) 


Smith 


934 


2 


5 


2 


(3) 


Helmut 


980 


6 


6 


6 



L 1 ensemble des trois tables ainsi construites occupe 
15 certes moins de place que la table initiale. 
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Mais cela illustre aussi 1 1 idee selon laquelle une 
base relationnelle peut etre transform^ en un ensemble de 
tables ind6pendantes les unes des autres . 

5 Dans 1'exemple precedent , on peut considerer la table 

^Continents' ' par elle-meme, la table ""Pays'" avec la 
table " "continent 1 ' d#velopp6e dedans (c ' est-a-dire la table 
""pays' 1 dans laquelle les references a la table 
""continents'' ont 6te remplacees par les lignes de la table 
10 elle-meme) et la table " " Personnes ' 1 avec les tables 
""Pays 11 et ""Continents' 1 developp^es dedans. 

Les tables d' expansion sont alors : 

15 Table d' expansion Continents : 



(li) 


Continent 


(0) 


Africa 


(1) 


America 


(2) 


Asia 


(3) 


Europe 



La table d' expansion Pays devient : 



(li) 


Country 


Continent 


(0) 


France 


Europe 


(1) 


Tunisia 


Africa 


(2) 


England 


Europe 


(3) 


Japan 


Asia 


(4) 


USA 


America 


(5) 


India 


Asia 


(6) 


Germany 


Europe 



20 
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Table d' expansion Clients : 



(li) 


Cn 


Inc 


Bircoun 


BirCont 


MoCoun 


MoCont 


EldCoun 


EldCont 


(0) 


Boyer 


817 


France 


Europe 


Tunisia 


Africa 


England 


Europe 


(1) 


Gracamoto 


1080 


Japan 


Asia 


Japan 


Asia 


USA 


America 


(2) 


Smith 


934 


England 


Europe 


India 


Asia 


England 


Europe 


<3) 


Helmut 


980 


Germany 


Europe 


Germany 


Europe 


Germany 


Europe 



11 peut bien evidemment arriver, comme dans cet 
5 exemple, qu'une table soit amenee a se d^velopper plusieurs 
fois dans une autre • Cela signifie qu'une colonne de table 
developpee dans une autre devra toujours etre referencee 
comme appartenant a la table d' expansion, d6velopp6e dans la 
table d' expansion via un jeu de cl6s primaires et cl6s 
10 etrangeres qu'ils feront partie de 1* identity de la colonne. 

Nous d^finissons done une table d' expansion comme une 
table dans laquelle toutes les tables qui pouvaient etre 
d£velopp€es en elle l'ont et6, en autant d ' exemplaires qu'il 
15 y a de jeux de cl§s primaires cl6s etrangeres permettant de 
passer de la table d 1 expansion a la table developpee. 

Desormais, nous considererons done que la base de 
donn^es relationnelle est form6e de tables d' expansion 
ind^pendantes les unes des autres. 

20 

Pour chacune de ces tables d' expansion , on peut batir 
les index comme explique dans le cas d'une table seule. 

Nous sommes maintenant en mesure d'interroger et de 
25 modifier notre base de donnees ainsi indexee. 

Dans cette partie, nous expliquons comment les index 
cr§es peuvent etre utilises pour r^soudre efficacement des 
requetes SQL. Habituellement , une requete implique plusieurs 
30 tables et peut etre separ^e en deux parties distinctes : la 
clause ""where* ' qui demande au gestionnaire de bases de 
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donnees de calculer des indices de lignes d'une table et une 
partie demandant au gestionnaire de bases de donn§es de 
faire des calculs sur des donnees se trouvant aux lignes 
calculees . 

5 

La premiere partie peut contenir des jointures de 
tables (un lien entre une cle 6trangere et la cl6 primaire 
correspondante ) , une comparaison entre une colonne et une 
constante (avec un connecteur arithmetique comme = , >=, >, 
10 <, <=, Between , like, in...) ou une comparaison entre deux 
colonnes (memes op6rateurs arithm^tiques ou encore un 
produit cartesien). Ces requetes sont connect6es entre 
elles, lorsqu'il y en a plusieurs, par des connecteurs 
logiques (and, or, not...). 

15 

La deuxieme partie de la requete peut contenir des 
operations arithmetiques comme des sommes, des moyennes, des 
produits, l'operateur de d^nombrement *, etc. 

20 Comme expliqu6 pr^c^demment , chacune des tables est 

consid6ree comme table d' expansion, ce qui signifie que les 
jointures de tables ne sont pas pertinentes pour une telle 
table . 

25 Mais une requete comporte habituellement plusieurs 

tables. Comment choisir la table d 1 expansion dans laquelle 
resoudre la requete ? 

Les tables impliquees dans la requete sont toutes 
30 developpees dans un ensemble non vide, disons T. 

Une seule de ces tables d' expansion n 9 est pas 
developpee dans les autres . Cette table est la table dans 
laquelle nous devons resoudre la requete. 



i 

i 
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La clause ""where 1 1 contient done des clauses de 
jointures, relives logiquement au reste de la requete par 
des connections logiques ""ef 1 . II suffit done de tout 
simplement les ef facer en remplagant toute la clause sv et' ' 
5 par 1* autre terme. Cela signifie qu'on remplace "(Jointure 
ET Reste) ' 1 par ""Reste 1 ' et ce pour chaque clause de 
jointure. 

Voyons ci present comment g^rer ef f icacement une clause 
10 ""where 1 ' d<§barrassee de ses clauses de jointure. 

Nous appelons ""requete atomique ' ' une portion 
indivisible de la clause where, e'est-a-dire une comparaison 
qui forme toute la requete ou qui est reliee au reste de la 
15 requete par des connecteurs logiques sans qu'elle en 
comporte elle-meme. Si une table t comporte la colonne c, 
une requete atomique sera par exemple t . c = 3 , t . c between 
""HIGH 1 ' and " "MEDIUM* 1 , ou encore t.c like Word% . 

20 Les prochains sous-par agraphes expliquent comment 

gerer les requetes atomiques. 

Ce cas est le plus simple a traiter est celui ou il y 
a 6galite entre une colonne et une valeur donnee. Il suffit 
25 de lire 1 ' arbre a radicaux de la valeur recherchee pour la 
colonne de la requete. 

La clause « Between » est un exemple fondamental de 
requete atomique. Toutes les autres requetes atomiques 
30 peuvent se ramener a ce cas. C'est pour cette clause que les 
macro-mots ont et6 crees. 

Reprenons 1' exemple des dates donnees dans le 
paragraphe sur les macro-mots. Cette colonne a 6te geree en 
35 enrichissant le vocabulaire des troncatures de ses mots de 



WO 2005/031602 PCT/FR2004/002371 

20 

longueur 4 et de longueur 6. Si on cherche les lignes dont 
la valeur est comprise entre [19931117, 19950225], il suffit 
de decouper l'intervalle en : [19931117, 19950225] = 
[19931117, 19931130] U [199312, 199312] U [1994, 1994] U 
5 [199501, 199501]U [10050201, 19950225]. 

Le calcul est alors tres simple : on lit 1 ' arbre a 
radicaux de la valeur 19931117, qu'on unit (operation 
logique sv or") avec celui de la valeur 19931118, ... qu'on 
0 unit avec celui de la valeur 19931130 puis avec celui de la 
valeur (tronqu^e a 6 caracteres) de 199312 puis avec celui 
(tronque a 4 caracteres) de 1994 puis avec celui (tronque a 
6 caracteres) de 199501, puis avec celui de 19950201 puis 
avec celui de ... 19950225. 

5 

Ainsi est-on amene a lire 42 arbres a radicaux au lieu 
des 466 qu'il aurait fallu lire sans les macro-mots. 

Le traitement des ""or 1 ' est explique plus bas. 

0 

On peut bien sur traiter des intervalles semi-ouverts 
ou ouverts en excluant simplement les mots correspondants . 



Chacune des requetes atomiques « Sup^rieur ou egal, 
inferieur ou egal, sup§rieur, inferieur » est une clause 
between qui s' ignore. En effet, si on appelle m et M le 
minimum et maximum du thesaurus de la colonne concern^e, 
alors 



t.c > a 


Signifie t.c est dans 


]a,M] 


t.c >= a 


Signifie t.c est dans 


[a,M] 


t.c < a 


Signifie t.c est dans 


[m,a[ ; 


t.c <= a 


Signifie t.c est dans 


[m,a] 



10 
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On peut ainsi traiter ces clauses comme une clause 
between . 

La clause In est une f agon de mixer des 6galit6s par 
des "or''. On peut done les g§rer tres simplement . 

Par exemple, t.c in (a,b,c) peut se r66crire en t.c = 
a or t.c=bor t.c = c. La gestion des clauses "or 11 est 
expliquee plus bas . 

La clause ""like' 1 est un autre exemple de clause 
between. Par exemple, la clause t.c like Mot% se reecrit en 
effet en t.c between [Mot, Mou[ . 



15 Les requetes atomigues peuvent etre mix€es a 1 ' aide de 

connecteurs logiques : le "And 1 ' , le "Or 1 ' et le "Not' 1 . 
Les trois prochaines sous-sections sont dediees a ces 
op6rateurs . 

20 Nous souhaitons d'abord insister sur le fait qu 1 une 

requete atomique renvoie tou jours en arbre a radicaux, ce 
qui sera aussi le cas de ces operateurs logiques et pour 
finir de la clause where. 



25 Le fait de faire un "or'' ( ss ou' ' ) de deux arbres a 

radicaux est en fait 1' operation consistant a les reunir. 

Ce calcul peut tres ais6ment se faire par un parcours 
en largeur des deux arbres simultan6ment . 

II se fait recur sivement par 

30 

union (tl, t2 ) 
Debut 
Arbre res; 

Si (tl = NULL) res = t2 
35 Si (t2 = NULL) res = tl 
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res->FilsGauche = Union ( t 1 ->F i lsGauche , t2- 
>FilsGauche) 

res->FilsDroit = Union ( tl->FilsDroit , t2->FilsDroit ) 
Renvoyer res 
5 Fin 

La clause « and » se calcule presque comme la 
precedente (elle correspond a une intersection) : 

10 Inter sect ion(tl / t2) 

Debut 
Arbre res ; 

Si (tl = NULL) res = NULL 
Si (t2 = NULL) res = NULL 
15 res->FilsGauche = Intersection! t l->FilsGauche , t2- 

>FilsGauche) 

res->FilsDroit = Intersection ( tl->FilsDroit , t2- 
>FilsDroit ) 

renvoyer res 
20 Fin 

Cette clause demande neanmoins moins de temps de 
calcul en moyenne que la pr6c6dente. En effet f lors des deux 
parcours des arbres en parallele, il suffit qu'un des deux 
25 noeuds explores n 1 ait pas de fils gauche pour que 
1 ' exploration du fils gauche de 1 1 autre noeud soit inutile. 

Cela est particulierement vrai quand les arbres ont 
ete stockes sur disque dur dans des fichiers separ^s. 

30 

La clause « Not » est une des plus difficiles a mettre 
en oeuvre parmi les requetes atomiques. Elle peut neanmoins 
se traiter assez facilement. 



WO 2005/031602 PCT/FR2004/002371 

23 

L' indice maximal des lignes de chacune des tables est 
stocke et mis a jour. La clause Not peut alors se traiter 
comme suit (le but est de calculer 1 1 arbre a radicaux Not T 
avec T un arbre a radicaux. 

On definit ici un n-arbre a radicaux complet un arbre 
a radicaux contenant toutes les valeurs des entiers compris 
entre 0 et n-1. 



Pour calculer un ^not", il suffit alors de retirer 
recursivement, a 1 1 aide d'un x-or les feuilles de T d'un n 
arbre a radicaux (ou n designe 1 ' indice maximal des lignes 
de la table d 1 expansion a laquelle appartient T) . 

Lorsqu'on retire un noeud d'un arbre a radicaux, on 
le retire et on retire recursivement son pere s ' il n'a plus 
de fils. 



Par exemple, la figure 3 montre le calcul de Not T 
20 lorsque la table d' expansion a laquelle T appartient a un 
indice maximum de lignes utilise egal a 13. 

L' arbre initial est presente figure 3 et 1 1 arbre 
transforme est presente figure 4. 

25 

La comparaison entre deux colonnes est la plus 
complexe des requetes atomiques. Cette requete se traite 
pratiquement comme un produit cartesien (voir la section 
suivante ) . 

30 

Soit t une table d' expansion et soient t.c et t.d deux 
de ses colonnes? Une comparaison entre ces deux colonnes est 
une operation au cours de laquelle on souhaite discriminer 
les lignes de t pour lesquelles t.c > t.d par exemple. Nous 
35 insistons sur le fait que cette comparaison se fait a indice 
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de ligne identique pour les deux colonnes, ce qui distingue 
cette comparaison du produit cart^sien. 



Comment pouvons-nous alors effectuer cette requete ? 

5 

Nommons T c et les thesaurus des deux colonnes t.c 
et t.d. 

Nous recherchons les lignes telles qu 1 a ces lignes, 
t.c > t.d. Voici comment proceder. Pour tout mot w du 
10 thesaurus T c , on calcule 1 1 arbre a radicaux r de 
l'intervalle [m_d, w % ] ou w' d6signe le plus grand mot de 

inferieur strictement a w. Alors en calculant un ""ef' sur 
r et 1' arbre a radicaux de w, on obtient un arbre t^. 

En effectuant la reunion de tous les arbres a radicaux 
15 r w , on obtient 1 1 arbre a radicaux recherche. 



II est bien evident que les arbres t w ne doivent pas 
etre calcules independamment les uns des autres. Puisque les 
mots w sont parcourus dans 1 ' ordre croissant, il suffit 
20 d'unir ^ a 1 1 arbre correspondant a 1'ajout des mots compris 

entre w et le mot suivant dans T c . 

On peut aussi calculer t c _ tj a 1 1 aide des fichiers a 
plat et lire le r^sultat. 

25 

Les autres clauses semblables se resolvent de fagon 
similaire (par exemple t.c >= t^) - 



Cette sous-section et la suivante sont consacrees aux 
30 sous-requetes . 

En effet, il peut se trouver qu'une clause "where 1 ' 
contienne elle-meme une autre clause ""where'', qui peut ou 
non etre correlee a la clause ""where'' principale. 
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Qu'est ce qu'une sous-requete correlee ? Un exemple 
d'une telle requete est donne par la requete 17 du TPC. 
Cette requete est : 



5 select 

sum(l_extendedprice) / 7.0 as avg yearly 
from 

lineitem 

part 

10 where 

pj>artkey = 1 jpartkey 
and pjbrand = '[BRAND] 1 
and p_container = 1 [CONTAINER] ' 
and l_quantity < ( 
15 select 

O.S * avg(Lquantity) 
from 
lineitem 
where 

2 0 p_partkey = p jpartkey 



Dans cette requete, on doit realiser le calcul d'une 
sous-requete tenant compte des conditions requises par la 
requete principale (puisque le p_partkey de la sous-requete 
25 appartient a la clause where principale). 

Done ce genre de requete peut etre reecrite de fagon a 
changer cette sous-requete en une sous-requete non correlee. 
II suffit pour cela de dupliquer les conditions requises par 
30 la clause where principale dans la clause where de la sous- 
requete correlee. Dans notre exemple, cela donne : 



select 

sum(l_extendedprice) / 7.0 as ag yearly 
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from 

lineitem 

part 
where 

5 p_partkey = l_partkey 

and p_brand = '[BRAND]' 
and p_container = ' [CONTAINER] ' 
and l_quantity < ( 
select 

10 0.2 * avg(l_quantity) 

from 

lineitem 

partsupp 
where 

1 5 p_jpartkey = pjpartkey 

and p_brand = ' [BRAND] ' 

and p_container = ' [CONTAINER] 1 



20 



); 



} 



Finalement, une sous-requete correlee peut se r6ecrire 
en une sous-requete non corr616e. C'est le sujet de la 
prochaine sous-section. 



25 Une requete SQL contenant des sous-requetes non 

correlees peut se traiter en traitant d f abord les sous- 
requetes recursivement et en remplagant dans la requete la 
sous-requete par son resultat. 

30 Desormais, nous sommes en mesure de traiter une clause 

"where 1 1 qui nous renvoie un arbre a radicaux represent ant 
les indices de lignes de la table d' expansion correspondant 
a cette clause. 
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Supposons a present que l'objet de la requete ait ete 
de realiser certains calculs sur quelques colonnes aux 
lignes trouv^es. Par exemple on peut vouloir calculer la 
moyenne aux lignes trouvees des valeurs d'une certaine 
5 colonne. 

Les valeurs de cette colonne sont stockees ""a plat' 1 
dans leur ordre d ' apparition. II est done tres simple de 
relire les valeurs de cette colonne uniquement pour les 
10 lignes trouvees precedemment et effectuer sur ces valeurs 
les calculs demand6s. 

L' invention est decrite dans ce qui precede a titre 
d'exemple. II est entendu que 1 1 homme du metier est a meme 
15 de realiser differentes variantes de 1 1 invention sans pour 
autant sortir du cadre du brevet. 
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REVINDICATIONS 

1. Proc6de d ' organisation d'une base de donnees 
relationnelle destine a etre mis en ceuvre sur une 

5 architecture inf ormatique comprenant au moins un processeur 
et de la memoire, caracteris6 en ce qu'il comporte les 
Stapes consistant a : 

^laborer une table d' expansion hi^rarchique ; 
creer un thesaurus sur chacune des colonnes ; 
10 - pour chacun des mots de chacun des thesaurus , 

creer 1'arbre des radicaux de 1' ensemble des indices de 
lignes sur lesquelles ledit mot apparait ; 

pour chacune des cles primaires, stocker la suite 
de ces valeurs en mettant en ceuvre une permutation sur 
15 1' ensemble de ces valeurs dans le but de retrouver une 
donnee . 

2. Proced6 d' organisation d'une base de donnees selon 
la revendication 1, caracteris6 en ce qu'il comporte en 

20 outre une etape de d^coupage des tables de la base de 
donnees en un ensemble de sous-tables , chacune comportant un 
nombre donn6 de lignes a 1' exception de la derniere sous- 
table. 

25 3. Proced6 d' organisation d'une base de donnees selon 

la revendication 1 ou 2, caracterise en ce que la base de 
donnees met en ceuvre le langage SQL (Structured Query 
Language ) • 

30 4 . Systeme de base de donnees organise selon le 

proced6 d' organisation de la revendication 1, 2 ou 3. 



35 



5. Proc6de de requetage d'une base de donnees 
organisee selon le proc^de de la revendication 1, 2 ou 3, 
caracterise en ce qu'il comporte 
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• une premiere etape de calcul d'une table 
d' expansion ; 

• rlsoudre la clause « Where » de la requete en 
interrogeant les colonnes de ladite table d' expansion ; 

5 • interroger les images non invers^es des colonnes 

pour r^soudre la clause « Select » . 
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Figure 2 
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